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摘 要 : 统计 学 习 能 力 常 作为 自 变 量 预 测 个 体 语 
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尔 巴 尼 分 校 教育 学 院 
又 研究 中 心 
能 力 的 发 展 ， 但 己 有 研究 质疑 传统 的 统计 


学 习 任 务 信 度 不 高 , 难以 满足 心理 测量 学 的 基本 要 求 。 为 获 
测验 信和 度 ， 本 研究 对 传统 的 实验 任务 进行 修改 :(1) 通过 使 


难度 的 试 次 ，(2) 换 用 熟悉 度 评分 任务 ， 避 免 被 试 反 复 对 同一 个 选项 进 


得 更 大 变异 的 测 


验 得 


? 一 一 基于 测验 信和 度 的 角度 


分 从 而 提高 


感性 。 此 外 ， 本 研究 还 对 比 了 视觉 图 形 和 
视觉 模 态 下 统计 学 习 任 务 的 信 度 要 普遍 
悉 度 评分 任务 。 综 上 ， 本 看 
标 结构 合成 学 习 材料 ， 以 
关键 词 : SSAA, (eRe, WES, AER 
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以 基本 认 知 能 力作 为 自 变量 预测 其 他 高 级 认 知 能 力 是 心理 学 


随 着 对 研究 技术 和 研究 方法 要 求 的 提高 ， 心 理学 界 越 来 


测量 的 准确 性 问题 , 已 有 学 者 指出 使 用 传统 认 知 实验 对 某 项 认 知 能 力 进 行 测量 时 , 信 度 往往 


荐 在 视觉 模 态 下 测量 统计 学 习 能 力 ， 并 且 使 
迫 选 任务 作为 测试 阶段 的 任务 类 型 。 
平分 任务 


混合 长 度 的 目标 结构 获得 不 同 
行 判断 ， 从 而 提高 
觉 语 音 模 态 下 统计 学 习 任务 的 信和 度 。 结 果 发 现 ， 
听觉 模 态 ; 视觉 模 态 下 迫 选 任务 的 信 度 要 高 于 熟 


混合 长 度 的 目 


一 个 常见 的 在 


越 关注 实验 范式 (任务) 的 科学 性 


究 思 路 d 


不 高 ， 难 以 满足 心理 测量 学 对 信 效 度 的 要 求 (Hedge et al., 2018 )。 在 语言 心理 学 领域 ， 统 计 
学 习 被 认为 是 和 口语 词 切 分 、 词 汇 语义 习 得 等 语言 习 和 


相关 的 基本 认 知 能 力 (Estes et al., 


2007, 2015; Newport, 2016; Saffran & Kirkham, 2018; Bogaerts et al., 2020; Siegelman, 2020; 


AA. Be A 
徐 贵 平等 ， 


2020)。 在 对 认 知 能 力 测 量 时 ， 需 要 保证 测验 信 度 。 但 以 组 间 差 异 视角 的 实验 范 


式 用 作 个 体 差 异 下 视角 的 研究 会 导致 实验 任务 的 信 度 不 高 , 对 统计 学 习 能 力 水 平 的 评估 不 准 
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角 ， 进 而 导致 部 分 研究 发 现 统计 学 习 能 


这 一 结论 《如 Lammertink et al., 2020)， 已 有 几 篇 文章 质疑 以 传统 统计 学 习 任 务 结 
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有 效 性 ， 希 望 对 统计 学 习 能 力 的 评估 提供 帮助 。 


能 够 预测 个 体 的 语言 发 展 情况 ,部 分 研究 由 
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统计 学 习 指 个 体能 够 从 外 界 输入 的 时 间 信 息 和 空间 信 ， 


wy 
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果 为 自 变 


预测 语言 发 展 结果 的 可 靠 性 。 本 研究 从 测验 信和 度 出 发 ,对 传统 测量 方式 进行 修改 ,并 验证 


并 以 此 学 习 新 


事物 的 过 程 (Saffran et al., 1996; Frost et al., 2020; 于 文 勃 等 ，2021 (a), 2021 (b) ; Isbilen & 


Christiansen, 2022)， 最 经 典 的 统计 学 习 任 务 来 


于 Saffran (1996) 等 的 文章 ， 采 


的 是 学 


习 - 测 试 范式 ， 学 习 材料 由 4 个 等 长 度 的 目标 词 〈 如 图 1， 每 个 目标 词 由 三 个 音节 组 成 ， 每 
个 大 写字 母 代 表 一 个 音节 ) 按照 伪 随 机 的 方式 拼接 而 成 ， 每 个 目标 词 在 学 习 材 料 中 出 现 45 
次 。 测试 阶段 ， 主 试 分 别 向 被 试播 放 目 标 词 和 跨 界 词 ， 通 过 对 比 被 试 的 注意 时 间 来 判断 被 试 
是 否 实现 了 统计 学 习 。 后 续 针对 幼儿 和 成 人 的 实验 沿用 了 学 习 阶 段 的 材料 , 在 测试 阶段 多 使 
用 人 迫 选 任务 〈 详 见 Isbilen & Christiansen, 2022)， 其 中 每 个 试 次 包括 一 个 目标 词 和 一 个 跨 界 
ia] (如 CJK) 或 非 词 ' (BHE)， 要 求 被 试 选择 出 组 成 学 习 材 料 的 基本 单位 。 由 于 跨 界 词 是 两 
个 目标 词 之 间 的 转换 之 处 ， 因此 被 认为 是 词 边界 ,记忆 效果 不 强 ; 而 目标 词 内 部 的 音节 始终 
相连 ， 音 节 组 合 关系 更 加 紧密 ， 记 忆 效 果 也 就 牢固 。 统 计 实验 结果 时 ， 如 果 被 试 迫 选 的 正确 
率 显著 高 于 0.5， 那 么 就 认为 出 现 了 学 习 效 应 ， 这 一 研究 思路 被 称 作 组 平均 视角 。 
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图 1 语音 统计 学 习 材 料 示 意图 
近年 来 ， 学 界 在 个 体 差 异 研究 视角 下 ， 开 始 将 被 试 在 迫 选 任务 中 的 正确 个 数 作为 统计 
学 习 能 力 的 指标 , 进而 预测 典型 发 展 儿 童 语言 发 展 和 解释 多 种 障碍 儿童 的 认 知 和 语言 表现 的 


原因 (Erickson et al., 2016; Kidd & Arciuli, 2016; von Koss Torkildsen, 2019; Kidd et al., 2020; 


Isbilen et al., 2022 )。 虽 然 这 一 个 体 差 异 视角 下 的 研究 得 出 了 显著 的 结论 , 但 依托 组 间 差 异 视 
角 的 实验 任务 信和 度 较 低 , 并 不 符合 心理 测量 学 的 要 求 。 本文 总 结 了 部 分 统计 学 习 任务 的 信和 度 


结果 ( 表 1), 发 现 大 多 数 都 难以 满足 心理 测量 学 对 能 力 测量 的 标准 :0.8C(Nunnally & Bernstein, 


1994). Siegelman (2017) 提出 组 间 差 异 视 角 研 究 范式 面临 的 两 个 问题 : (1) 测试 任务 中 试 
次 太 少 〈 通 常 为 16 个 ); (2) 测试 阶段 始终 使 用 跨 界 词 和 目标 词 进行 配对 比较 ， 难 度 一 致 。 
这 两 个 因素 共同 导致 被 试 得 分 的 变异 较 小 , 依托 于 相关 分 析 而 得 到 的 测验 信 度 也 就 较 低 。 此 
Sh, 迫 选任 务 中 为 了 平衡 顺序 效应 , 同一 个 选项 (包括 目标 结构 和 跨 界 结构 ) 还 要 多 次 出 现 ， 
不 仅 降低 了 敏感 性 还 会 对 信和 度 产生 影响 。 

一 些 统计 学 习 研 究 在 实验 任务 中 报告 内 部 一 致 性 系数 , 但 很 少见 到 系统 比较 不 同 模 态 、 
不 同 任务 下 信 度 指标 差异 的 研究 ， 学 界 也 没有 一 个 针对 统计 学 习 能 力 相 对 完善 的 测验 方案 。 
Arnon (2020) 使 用 经 典 的 实验 范式 ， 分 别 计算 了 成 人 和 儿童 完成 多 种 统计 学 习 任务 的 信 度 


! 统计 学 习 中 非 词 没有 固定 的 组 成 方式 ， 只 要 是 在 学 习 材料 中 不 前 后 相连 的 音节 组 合 就 可 以 称 作 非 词 。 
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指标 ， 发 现成 人 被 试 的 信 度 指标 达到 中 等 程度 ， 但 儿童 被 试 的 
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大 幅 提升 , 但 测验 时 长 大 大 增加 ,还 包括 了 多 


言 度 很 低 ， 和 心理 测 


Siegelman (2017) 则 对 以 往 视 觉 统 计 学 习 任 务 进行 修改 ， 虽 然 信 度 指标 得 到 


身上 广泛 使 用 。 
表 1 部 分 统计 学 习 实 验 的 信 度 
作者 模 态 试 次 数 样本 量 a 系数 分 半 信 度 
Siegelman(2015) 视觉 32 76 
Siegelman,2017 视觉 42 62 0.88 0.72--0.9 
Siegelman,2018 语音 42 55 0.42 
Siegelman,2018 视觉 36 200 0.84 
Siegelman,2018 视觉 36 200 0.78 
Siegelman,2018 语音 36 200 0.54 
Siegelman,2018 语音 36 200 0.59 
Tong,2019 视觉 32 35 0.56 
Arnon,20202 语音 25 52 0.57 0.18--0.63 
Arnon,2020 视觉 25 52 0.83 0.55--0.83 
Kidd,2020 语音 32 37 -0.04 
Kidd,2020 语音 32 37 -0.05 
Witteloostuijn,2021 视觉 24 50 0.55 一 0.8 
Witteloostuijn,2021 视觉 16 50 0.67--0.85 


除了 以 上 两 个 问题 以 外 , 还 有 下 
因素 。 统 计 学 习 以 “ 白 


究 指 出 统计 学 习 过 于 到 


板 假 说 ”为 前 提 CU Elazar et al., 2022)， 假 设 被 试 在 学 习 


试题 形式 ， 不 利于 在 婴 幼 儿 和 发 展 障 但 儿童 
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触 过 入 工 语言 ,测试 阶段 所 表现 出 的 学 习 效 应 均 来 自 于 学 习 阶 段 。 但 事实 上 , 语音 统计 学 习 


中 学 习 的 音节 ( 


次 的 判断 也 就 存在 异 质 性 ,测验 的 内 音 


ANS 


合 ) 在 被 试 的 母语 
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系数 
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觉 图 


究 最 多 , 但 也 存在 其 他 材料 


Æ (Siegelman et al., 2018b)， 详 见 元 分 析 文 章 Frost (2020) |. At 


REA KANE 


Fe, 本 研究 主要 从 试 次 的 难 


2 Amon (2020 
人 被 试 的 结 


F 务 〈Siegelman et al., 2018a). 


存留 痕迹 3， 每 一 个 被 试 的 语言 经 验 不 同 ， 对 人 迫 选 试 
然 会 较 低 。 目 前 来 看 ， 以 音节 为 材料 的 


|， 如 音调 (Saffran et al., 1999)、 声 音 (Siegelman et al., 


究 认 为 视 


形 不 容易 受到 被 试 经 验 的 影响 ， 也 更 容易 满足 “白板 假说 ”， 信 度 更 高 ， 更 应 该 作为 统 
计 学 习 能 力 的 测量 在 


基于 以 上 分 析 可 以 看 出 ， 统 计 学 习 能 力 的 测 制约 了 探讨 统计 学 习 和 语言 


度 分 布 、 测 验 任务 和 材料 模 态 等 方面 


) 中 分 别 以 儿童 


EE 和 成 人 为 被 试 计算 了 统计 学 习 人 有 


3 语音 统计 学 习 要 求学 习 材 料 为 无 意义 语音 材料 ， 在 印 


语系 下 只 能 保证 音节 没有 对 应 的 字 ( 词 ), 但 印 欧 语系 


中 ， 也 可 能 在 方言 中 出 现 或 音 段 结构 容易 产生 联想 。 


欧 语 系 下 


eb EL 


进行 改进 和 比 


E 务 的 信和 度 ， 本 文 以 成 人 为 被 试 ， 只 总 结 了 成 
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FP 音 节 组 合 可 


He AE 


只 能 保证 音节 组 合 没 有 对 应 的 词 ， 在 汉 藏 
有 意义 词语 的 部 分 组 合 ， 汉 藏 语系 


Be, 而 非 增加 试 次 这 是 因为 统计 学 习 任 务 需要 被 试听 无 意义 音节 和 无 意义 图 形 , 学 > 
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起 被 试 的 厌烦 情绪 。 首先 , 不 同 于 以 往 研究 使 用 等 长 度 的 目标 结构 合成 学 习 材 料 ， 本 研究 


以 不 同 长 度 的 目标 结构 合成 学 习 材 料 , 这 是 因为 不 同 长 度 的 目标 结构 会 对 应 不 同 的 转换 概率 
和 记忆 表征 ， 可 以 丰富 试 次 的 难度 差异 ， 提 高 被 试 得 分 的 变异 ; 同时， 还 可 以 避免 被 试 产生 


节奏 期 待 夸大 实验 效应 (Hoch etal., 2013)。 其 次 ， 近 年 来 一 些 学 者 使 用 熟悉 度 评 


分 任务 作 


为 统计 学 习 能 力 的 测试 任务 (Batterink et al., 2015 )， 即 要 求 被 试 对 目标 结构 、 跨 界 结构 和 非 
结构 的 熟悉 程度 进行 评分 , 这 一 任务 可 以 避免 同样 的 选项 在 迫 选 试 次 中 反复 出 现 而 
的 敏感 性 ， 本 研究 也 将 检验 熟悉 度 评分 任务 的 信 度 指标 ， 为 测量 任务 提供 备 选 。 第 三 ， 我 们 
还 分 别 设计 了 视觉 和 听觉 模 态 的 任务 ， 以 比较 不 同 模 态 下 统计 学 习 测验 的 信和 度 。 最 后 ， 已 发 


的 ? 能 否 作为 解释 汉语 儿童 语言 发 展 的 因素 也 急需 探索 。 


2 方法 
2.1 被 二 


降低 试 次 


表 的 声调 语言 语音 统计 学 习 任务 较 少 , 在 声调 这 一 语言 特征 下 , 统计 学 习 任 务 的 信 度 是 怎样 


共有 147 名 被 试 参与 实验 ， 男性 被 试 43 名 , 被 试 年 龄 范围 18 一 27 岁 ， 所 有 被 试 母语 均 
为 汉语 普通 话 。 参 加 听觉 语音 人 工序 列 A 的 被 试 38 人， 人工 序列 B 的 被 试 36 人 ， 参 加 视 
觉 图 形 人 工序 列 A 的 被 试 37 人 ， 人 工序 列 B 的 36 人 4。 实 验 前 ， 被 试 签署 知情 同意 书 ， 实 


验 结束 后 被 试 获取 少量 报酬 ， 本 研究 经 过 校 伦理 委员 会 审查 (X X 2022060023 和 Xx x 


202302010). 
2.2 实验 设计 
本 研究 仍旧 采用 学 习 -测试 范式 ， 包 括 听 觉 语 音 和 视觉 图 形 两 


' 模 态 ， 每 种 模 
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括 熟 悉 度 评 分 和 强迫 选择 两 种 测试 任务 ; 另外， 每 个 实验 还 包括 互 为 对 照 的 学 习 材 料 ， 学 习 
材料 A 中 的 目标 结构 是 学 习 材 料 B 中 的 跨 界 结构 ， 反 之 ， 学 习 材 料 B 中 的 目标 结构 是 学 习 
材料 A 中 的 跨 界 结构 ， 这 一 设置 可 以 保证 实验 效应 不 是 来 自 于 特殊 的 材料 组 合 。 


研究 可 以 看 成 2 ( 模 态 :视觉 图 形 ， 上 听觉 语音 ) X2 (测试 任务 :熟悉 度 评分 任务 


务 ) X2 (对 照 材料 ， 学 习 材 料 A， 学 习 材料 B) 的 三 因素 的 混合 实验 设计 ， 其 
四 个 被 试问 水 平 


对 照 材 料 是 被 试 间 变 量 ， 测 试 任务 是 被 试 内 变量 。 被 试 随 机 分 配 到 


tre, A 


， 模 态 和 


NZA 


’ 


被 试 先 完成 熟悉 度 评分 任务 ,一 半 被 试 先 完成 迫 选任 务 ， 从 而 平衡 测试 任务 的 顺序 效应 。 本 


4 由 于 部 分 被 试 操作 失误 ， 视 觉 图 形 材料 A 序列 中 的 迫 选任 务 共 搜 集 34 个 被 斌 数据， 视觉 图 形 材料 B 序 
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中 迫 选 和 熟悉 度 评分 任务 均 搜集 到 34 个 被 试 数据 。 
4 


7 


研究 的 


2. 3 材料 和 实验 程序 
2.3.1 听觉 语音 材料 
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[语言 的 编 
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ny 


形式 是 


规则 的 10 个 音节 ， 包 括 CV (C 代表 加 


普通 话 中 最 常见 的 结构 。 为 了 避免 声调 承载 的 统计 信息 影响 结果 , 所 有 


Bs 〈 于 文 勃 等 ，2021lb) 的 研究 。 在 汉语 


IA 


声 ， 而 且 这 10 个 音节 没有 对 应 的 汉字 ， 尽 量 避 免 被 试 进行 联想 。 


` 


在 专业 录 


音 室 进行 录 


ty 采样 率 为 44100Hz。 


a HAs 


音 人 对 目标 


H 


只 有 ruol 为 目标 音节 。 随 后 


Ze 
H 


GE 


词语 的 可 能 性 相等 (1/3)。 人 工 语 言 A 和 B 中 每 个 目标 词 重复 
呈现 时 长 为 6 分 钟 。 
在 强迫 选择 任务 中 ， 每 个 试 次 | 


日 无 意义 的 目 
合成 人 工 语 言 A 和 人 了 


E 度 或 明 


高 (266Hz) 和 强度 (70dB) 进行 归 
标 词 ， 分 别 为 两 个 两 音节 目 


[语言 B， 要 求 同 一 个 目标 词 不 能 连续 出 现 两 次 ， 而 且 


= 


过 


yy 


过 将 目 


Hit,» V 代表 元 音 ) M CVV 两 


普通 话 1 


因 变 量 为 测验 任务 的 信和 度 ， 包 括 克 伦巴 赫 a 系 数 和 分 半 信 和 度 的 区 间 范 


bn HR wr. He 


库 中 选择 符合 发 


a 


形式 ， 这 两 种 


一 名 女性 


节 


音节 


普通 话 母语 者 


标 音节 放置 大 


E 两 个 音节 之 让 


来 排除 录 


NT 


通过 Praat 软 伯 


的 停顿 ， 例 如 录音 人 
F 分 离 目 


Kt 


标 


化 Chttp://www.praat.org/). 1ER 


标 词 和 两 个 三 音节 目 


度 相等 以 避免 词 长 对 被 试 的 选择 产生 影 ! 
标 词 先 出 现 ， 另 一 半 中 跨 界 词 
迫 选 对 各 8 个 ， 共 计 16 个 斌 次。 在 熟悉 度 评 分 任务 中 ， 被 试 对 目标 词 、 跨 界 词 和 非 词 


PH 


wnt 
HOH 


CHIL, 


i], 每 个 目 
以 此 来 平衡 顺序 效应 。 另 外 


E 务 的 三 类 词 材料 


的 熟悉 程度 进行 七 点 评分 。 两 个 测试 入 
表 2 ieee 
学 习 材 料 版 本 目标 词 
nueruote 
Ct se diafolai 
人 工 语 言 A , 
remei 
rouse 
tediafo 
PEAREN lainueruo 
ALTES . 
meirou 
sere 


2.3.2 视觉 图 形 材 料 


PSI 


形 材料 的 选择 参考 (Siegelman 4, 2018b) HJA 
材料 ， 学 习 阶段 中 每 个 图 形 呈 现 800ms， 随 后 


5 


L 
u 


跨 界 词 
tediafo 
lainueruo 
meirou 
sere 
diafolai 
nueruote 
rouse 


Temel 


E 产 出 音节 串 nvel-ruol-geil, 


H 


标 词 


其 中 


音节 ， 并 对 其 持续 时 间 (300ms)、 平均 


10 个 音节 随机 组 


DEN 


通过 Praat 


’ 


后 出 现 其 他 


HE 120 次 ， 总 计 480 个 词 ， 


1 个 目标 词 和 1 个 跨 界 词组 成 ， 目 标 词 和 跨 界 词 的 长 


标 词 和 两 个 跨 界 词 进行 迫 选 ， 


半 的 试 次 
， 三 音节 迫 选 对 和 两 


EF 务 试 次 的 呈现 顺序 均 为 随机 。 三 类 词 具体 如 表 2。 


a 
nuemeilai 
diasete 
refo 
rouruo 
terouruo 
lairefo 
meinue 


sedia 


究 。 选 择 10 个 无 意义 图 形 组 成 学 习 


， 接 着 


HEL 100ms 的 空 


上 现下 一 个 图 形 。 


人 工 材料 编制 的 原则 同 听觉 语音 模 态 ， 每 个 目标 图 形 组 合 呈 现 28 次 ， 迫 选任 务 和 熟悉 度 评 


分 任务 的 设计 也 和 音节 任务 保持 一 致 ， 三 类 图 形 组 合 如 表 3。 


表 3 视觉 图 形 任务 的 三 类 图 形 材料 
图 形 材料 版 本 目标 结构 跨 界 结构 非 结 构 


一 口 


SLH Heo s+ 
Baw S29 PZH 


be +s ra 
+= =? 上 全 
Hee siH bya 
wus Baw Hi 
BERIB 


+ I+ +79 
= 2? += TP 


2.3.3 实验 程序 


实验 程序 由 E-prime 呈现 ， 听 觉 语音 条 件 下 被 试 佩戴 耳机 完成 ， 电 脑 音量 固定 为 30%。 
' 模 态 下 实验 程序 都 包括 练习 实验 和 正式 实验 , 练习 实验 前 1 


B 


ray 


主 试 讲解 实验 要 求 和 指导 语 ， 
学 习 阶段 播放 Ss 中 的 人 工 语言 或 视觉 图 形 序列 ， 随 后 完成 迫 选任 务 和 熟悉 度 评分 任务 。 练 


习 实 验 中 的 材料 在 正式 实验 中 不 会 出 现 。 语 音 模 态 下 实验 任务 大 约 需 要 15 分 钟 完 成 ， 视 觉 
图 形 任 务 大 约 需 要 10 分 钟 。 


实验 流程 图 如 图 2。 实 验 材 料 、 数 据 和 代码 见 : 
https://github.com/****** /reliability-of-SL. 


CD ..— hueruote— diafolai—remei— nueruote — ... 


or 学 习 阶 段 
“S , 
DH 
请 判断 对 这 个 词 的 熟 请 判断 对 这 个 图 形 组 
悉 程 度 ? 合 的 熟悉 程度 ? 
Hee 
Kp1234567 1234567 测试 阶段 
测试 了 
哪个 词 出 现在 刚刚 的 哪个 图 形 组 合 出 现在 
人 工 语言 中 ? 刚刚 的 学 习 材料 中 ? 
1: nueruote 1: § LH 
CP 2: tediafo Wr Hha 
图 2 实验 流程 图 
3 结果 


采用 及 语言 (4.3.1) 对 数据 分 析 ， 克 伦巴 赫 w 系 数 和 分 半 信 度 均 使 用 psycho 包 中 的 
reliability 函数 进行 计算 ， 数 据 结果 见 表 3。 


表 3 克 伦 巴赫 a 系数 和 分 半 信 度 结果 5 


条 件 对 照 模 态 测验 任务 试 次 量 a 系数 分 半 信 度 区 间 
1 A 语音 迫 选 16 0.676 0.269--0.893 
2 A 语音 评分 12 0.676 0.406--0.838 
3 B 语音 迫 选 16 0.682 0.287--0.900 
4 B 语音 评分 12 0.759 0.596--0.908 
5 A 视觉 迫 选 16 0.863 0.567--0.977 
6 A 视觉 评分 12 0.733 0.544--0.880 
B 视觉 迫 选 16 0.766 0.419--0.951 
8 B 视觉 评分 12 0.740 0.397--0.901 


结合 表 1 和 表 3 的 数据 , 本 研究 测验 任务 的 信 度 指标 和 其 他 研究 结果 的 关系 如 图 3 Ce 
侧 为 克 伦 巴赫 a 系数 ， 右 侧 为 分 半 信 度 )， 可 以 看 出 以 混合 长 度 目 标 结构 合成 的 统计 学 习 任 
务 ， 信 度 指 标 和 以 往 研 究 相 当 或 更 好 。 此 外 ,我 们 还 计算 了 被 试 完成 熟悉 度 评分 任务 和 迫 选 
任务 结果 的 相关 性 ， 听 觉 语 音 模 态 下 ， 两 种 任务 被 试 得 分 的 相关 系数 "= 0.460, p < 0.001, 


>~ 


5 5 从 表 3 中 可 以 看 到 ， 同 为 语音 条 件 下 的 迫 选 任务 ， 对 照 语言 A 和 对 照 语 言 B 的 a 系数 差异 较 大 ， 类 似 
的 情况 还 出 现在 视觉 图 形 迫 选任 务 中 。 这 可 能 是 因为 有 些 无 意义 材料 的 组 合 关系 对 被 试 有 特殊 的 意义 ， 导 
致 学 习 效 果 较 强 ， 而 另外 一 些 组 合 则 对 其 他 被 试 有 特殊 含义 ， 进 而 导致 被 试 对 同一 个 组 合 关系 有 不 同 的 作 
FRIR, Fa 系数 差异 较 大 。 


7 


视觉 图 形 模 态 下 ， 两 种 各 


F 务 被 试 得 分 的 相关 系数 >= 0.420, p> 0.05， 说 明 语 音 模 态 下 两 


' 测 


试 任务 成 绩 相 关 显 著 ， 但 在 视觉 模 态 下 两 种 测试 任务 成 绩 相 关 不 显著 。 


1.00 


Oo p > 


研究 

© RR 

@ MRR 
测试 任务 

O BREZ 

A ABRES 
研究 

-一 当前 研究 

-一 以 往 研究 
测试 任务 

一 - 迫 选任 务 

me 熟悉 度 评分 任务 


Dbo ao 


4 讨论 


在 探讨 统计 学 习 能 力 和 个 体 语言 发 展 的 关系 时 , 尤其 要 关注 统计 学 习 能 力 的 记 


LEA 


以 


q 


究 的 信 度 指标 不 够 理想 , BETRE AOR. AH 


视觉 图 形 


3 统计 学 习 能 力 测验 信和 度 汇 总 


F 估 方式 ， 
究 在 学 习 材 料 上 使 用 了 混合 长 


度 的 目标 结构 ， 并 且 对 比 了 迫 选 任务 和 熟悉 度 评 分 任务 的 信 度 结果 ; 此 外 ， 还 纳入 了 视听 模 


态 的 对 比 。 结 果 发 现 ,视觉 模 态 下 统计 学 习 测 


# 信 度 区 间 也 更 为 理想 ， 尤 其 是 迫 选 任务 的 信 度 指标 好 于 熟悉 度 评分 任务 。 


同时 分 


验 的 a 系数 较 高 ,基本 达到 心理 测量 学 的 要 求 ， 


4.1 混合 长 度 学 习 材料 对 信和 度 的 影响 


以 听觉 语音 模 态 为 例 ， 本 研究 在 听觉 语音 模 态 中 使 有 


语言 序列 , 在 视觉 图 形 模 态 中 使 用 三 连 图 形 和 两 连 图 形 合成 图 形 序 列 。 


A 


进行 选择 , 三 音节 目 


词 边界 特征 


L. 9 


PEAY x 


Ik, RABY 


:分 人 


也 符合 我 们 的 预期 , 无 论 使 月 


日 块 机 制 (Perruchet, 2019; Isbilen et al., 2020)， 被 试 在 测试 人 


E 务 中 斌 次 


F 添 加 了 非 词 结构 ， 试 次 包括 三 (两 ) 


三 音节 和 两 音节 目标 词 合 成 人 工 
依据 统计 学 习 的 记忆 
根据 学 习 阶 段 的 记忆 表征 


ES 


标 词 和 三 音节 跨 界 词 有 共同 的 音节 组 合 ,同时 仅 在 一 个 跨 界 处 有 明显 的 
因此 记忆 表征 强度 差异 较 小 ， 被 试 选择 难 
节 跨 界 词 没 有 共同 的 音节 组 合 ， 但 在 一 个 跨 界 处 有 词 边 界 特 生 
E 度 也 较 小 。 所 以 ， 以 混合 长 
在 熟悉 度 评分 任务 中 由 了 
跨 界 结 构 和 三 (两 ) 音节 非 结 构 ， 非 结构 在 学 习 阶 段 没 有 出 现 过 ,是 最 容易 判断 的 试 次 ， 因 


ERRAK; 相反， 两 音节 目标 词 和 两 音 
E， 记 忆 表 征 差异 较 大 , 被 试 选 
标 结构 合成 学 习 材 料 时 ， 迫 选 试 次 难度 区 分 更 细致 。 


音节 目标 结构 、 三 (两 ) 音节 


度 目 


节目 


度 差异 更 大 ， 也 更 容易 获得 变异 较 大 的 得 分 。 实 验 的 信 度 指标 


熟悉 度 评分 任务 还 是 迫 选任 务 , 混合 长 度 统计 学 习 任务 的 测验 


fee ah DER 


究 持 平 或 高 于 以 往 研究 。 


4.2 学 习 材 料 模 态 对 信和 度 的 影响 
以 克 伦 巴赫 a 系数 为 信和 度 指 标 时 ,视觉 图 形 模 态 下 的 统计 学 习 任务 信和 度 均 高 于 0.70, JÈ 


其 以 迫 选 任务 作为 测验 任务 时 ， 信 度 达到 0.863 和 0.766, (SEAS) 符合 心理 测量 学 的 标准 


(Nunnally & Bernstein, 1994); 相反 ， 听 觉 语音 模 态 下 的 测验 信 度 不 高 ， 有 三 个 条 件 都 低 于 


0.7。 在 计算 分 半 信 度 时 ， 


本 研究 只 报告 了 区 间 ， 不 过 即便 这 样 ， 视 觉 模 态 下 信 度 的 上 限 和 


下 限 都 高 于 语音 模 态 ， 而 
ASK 


Feo 


较 少 受到 被 试 个 体 语言 经 验 的 影 


且 变 异 范围 更 窗 , 所 以 使 


的 视觉 任务 


视觉 材料 有 助 于 提高 统计 学 习 任 务 的 信 
究 的 结果 和 Siegelman (2018) 等 人 的 观点 一 致 : 相 比 于 语音 材料 ， 视 觉 统计 学 习 
向 ， 被 试 闻 的 判断 一 致 性 更 高 。Siegelman (2017) 等 修订 


， 学 习 阶 段 每 个 目标 结构 只 呈现 24 次 , 测试 阶段 被 试 需要 完成 42 个 试 次 , 包 


括 熟 悉 度 评分 和 图 形 补 全 两 类 任务 ,同时 干扰 选项 也 更 多 。 但 在 我 们 的 © 


， 仍 旧 使 用 了 


九 


较为 常见 的 16 个 二 选 一 的 强迫 选择 试 次 ， 也 达到 了 较 好 的 信和 度 指标 ， 相 对 来 说 ， 本 研究 的 


任务 兼顾 了 信和 度 和 实验 效益 。 有 意思 的 是 不 同 模 态 下 , 两 种 测试 任务 成 绩 的 相关 性 出 现 


的 区 别 ， 语 音 模 态 的 显著 相关 性 和 以 往 研究 结果 一 致 (Erickson et al., 2016)， 视 觉 模 态 下 不 


同 任务 的 相关 性 研究 还 鲜 有 见 到 ， 未 来 应 该 结合 测验 作 
在 统计 学 习 和 阅读 技能 的 关系 研究 中 , 大 多 数 研究 使 


E 务 和 材料 模 态 进行 综合 考察 。 


视觉 材料 作为 统计 学 习 材料 (如 


Tong et al., 2019， 详 见 Lee et al., 2022); 然而 也 有 


测 个 体 的 阅读 技能 或 解释 阅读 障碍 儿 站 


al., 2019). Ait, AF 
符合 发 音 规则 但 


了 很 大 困扰 。 


FER INA GE Bt FA A 
意义 的 音节 很 少 ， 


因此 ， 


4.3 测验 任务 类 型 对 测验 信和 度 的 影响 


本 研究 除 ] 
是 因为 近 选 任务 


的 结果 包含 了 被 试 在 学 习 阶 段 的 学 习 效 应 和 人 迫 选 过 程 


低 测 验 的 敏感 性 。 不 过 ， 


使 用 人 迫 选 人 有 


He 


E 务 外 ， 还 使 用 了 熟悉 度 记 


为 了 平衡 选项 出 现 的 顺序 ， 每 个 选项 都 要 重复 出 现 多 次 5， 


究 指出 听觉 统计 学 习 能 力也 能 够 预 


EE 的 阅读 障碍 表现 (Gabay, Thiessen, & Holt, 2015; Qi et 
E 务 的 信和 度 更 为 稳定 ， 同 时 ， 在 普通 话 背景 下 ， 
以 第 一 声 为 例 仅 有 20 个 左右 ， 这 
结合 心理 测量 学 要 求 和 实验 材料 的 可 操作 性 ， 我 们 更 # 
任务 作为 统计 学 习 能 力 的 考察 方式 。 


给 语音 统计 学 习 的 


厦 使 用 视 


分 任务 作为 统计 学 习 的 测试 任务 ， 这 


所 以 迫 选 任务 


ASK 


低 于 人 迫 选 任务 ， 分 半 信 度 的 


对 统计 学 习 能 力 更 好 的 记 


区 间 也 要 更 大 、 更 低 ， 因 此 从 心理 测量 学 


的 二 次 学 习 效应 , 这 一 平衡 策略 会 降 


究 结 果 发 现在 视觉 图 形 模 态 下， 熟悉 度 评分 任务 的 a 系数 普遍 


IERE, WES E 


je 


FE 估 方式 。 需要 注意 的 是 ， 


5 在 本 研究 中 ， 每 个 


标 结构 和 跨 界 结构 都 要 重复 出 现 4 次 。 
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tej 


究 从 构想 效 度 的 角度 对 不 同 测验 任 


务 所 考察 的 内 容 进 行 分 析 ， 认 为 迫 选任 务 和 熟悉 度 评 分 任务 都 属于 反思 类 任务 ,不 仅 考察 了 
个 体 捕捉 统计 信息 的 能 力 ， 还 包括 了 元 认 知 的 能 力 (Ordin & Polyanskaya, 2021; Isbilen & 
Christiansen, 2022)， 所 测量 的 统计 学 习 能 力 并 不 纯粹 ,后 续 研 究 应 该 从 更 多 方面 衡量 不 同 的 
实验 任务 。 


为 满足 心理 测量 学 的 基本 要 求 ， 本 研究 对 统计 学 习 能 力 的 测量 方案 进行 修改 ， 发 现在 
视觉 图 形 模 态 下 , 使 用 混合 长 度 的 目标 结构 合成 学 习 材 料 ， 以 迫 选任 务 作为 测验 任务 的 组 合 
方式 ， 能 够 获得 较为 稳定 的 信 度 指标 。 
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How to measure statistical learning ability: 


evidence from test reliability 
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Abstract: Research has considered statistical learning (SL) as a fundamental learning mechanism 


in cognition, for which individuals rely on the statistical regularities from visual and verbal input 


12 


during information processing. Learners’ utilization of SL has been shown to impact different 
aspects of language development, including phonological, lexical, and syntactic development for 
infants, school-aged children, and adult second language learners. Take the verbal SL task as an 
example, participants are first exposed to a nonsensical artificial language or visual sequence for 
5~10 mins and then asked to finish a 2 alternative forced choice task (2AFC). Accuracy on each 
trial is coded in a dichotomous manner, with 0 for incorrect and | for correct, and aggregated 
across participants to generate the mean accuracy of the group. If it is higher than chance level, it 
is assumed that learning has occurred. This research perspective is called the perspective of inter 
group differences. 

Recent studies have utilized the scores of 2AFC task as participants’ SL ability; learners 
language development and other high cognitive skills have been predicted based on their 
performance in these tasks. However, this index is the result from the perspective of inter-group 
differences, which is suitable for judging whether the test group exhibits statistical learning effects, 
but not measuring the relationship between SL ability and other cognitive ability. Under this 
perspective of individual difference, some researchers criticized the low reliability of SL tasks and 
suggested that the task results are not psychometrically satisfactory. In the current study, we aimed 
to put forward a modified SL task that is relatively more comprehensive. Two aspects of 
traditional tasks have been modified; one is that we constructed learning materials with 
mixed-lengths targets, and another is that we employed a familiarity rating task to measure 
learning outcomes in addition to the 2AFC task. These two actions aimed to obtain test scores 
with bigger variability so that improving the reliability of task. Finally, some papers argued that 
visual SL task is free from linguistics experience, thus is with better reliability index; so we also 
compared the reliability between the visual and verbal modalities. 

A total of 143 participants took part in our experiment: 38 in the artificial language A 
condition, 36 in artificial language B condition, 35 in visual image A condition, and 34 in visual 
image B condition. Two types of reliability Cronbach's alpha coefficient and split-half reliability 
were computed with the reliability function in R. The results of this study are divided into three 
aspects. Firstly, the index of two types of reliability in the current study are better than previous 
studies. This indicates that the learning materials we constructed with mixed-length nonsensical 
words exhibit some advantages in reliability. Secondly, the results revealed that both the 
Cronbach's alpha coefficient and split-half reliability of statistical learning tasks in the visual 
modality were higher than those in the auditory modality, which is consistent with the opinion of 
Siegelman (2018a). Then, the reliability of forced-choice tasks in the visual modality was higher 
than that of familiarity rating tasks, suggesting the results obtained from 2AFC task are more 


stable and consistent across participants. Additionally, scores from 2AFC task and familiarity 
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rating task correlated with each other in verbal modality, but not in visual modality. 

The current study explored the task in measuring SL ability. The results underscore the 
importance of using mixed-length learning materials and suggest employing visual stimuli in 
assessing statistical learning abilities in addition to the traditional utilization of forced-choice tasks 
during the testing phase. Future studies should not only focus on designing brief SL tasks for 
children and language disorder population that align with psychometric standards, but also rethink 
the cognitive mechanism underlying various SL task. 


Key words: statistical learning; 2-alternative forced choice task; familiarity rating task; reliability 


